概要とアーキテクチャの進化の地図
AlexNetの基盤的な成功から、極めて深い 畳み込みニューラルネットワーク(CNN)という時代へと移行しました。この変化は、学習の安定性を保ちつつ極端な深さに対応するため、画期的なアーキテクチャの革新を必要としました。そこで、三つの代表的なアーキテクチャ——VGG、 GoogLeNet(Inception)、および ResNet——それぞれがスケーリング問題の異なる側面をどのように解決したかを理解し、後半の授業で厳密なモデル解釈の土台を築きます。
1. 構造的単純性:VGG
VGGは、極めて均一かつ小さなカーネルサイズ(特に 3×3畳み込みフィルタ を積み重ねることで深度を最大化するというパラダイムを導入しました。計算コストは高いものの、構造の均一性が、最小限のアーキテクチャ変更によって達成される「純粋な深度」こそが性能向上の主因であることを証明し、小規模な受容場所の重要性を確立しました。
2. 計算効率:GoogLeNet(Inception)
GoogLeNetは、効率性とマルチスケール特徴抽出を優先することで、VGGの高コストを補いました。その中心的なイノベーションは Inceptionモジュールであり、並列な畳み込み(1×1、3×3、5×5)とプーリングを実行します。特に重要なのは、 1×1畳み込み を ボトルネック として用いることで、高コストな演算の前段階でパラメータ数と計算複雑性を劇的に削減しています。
キーな工学的課題
Question 1
Which architecture emphasized structural uniformity using mostly 3x3 filters to maximize depth?
Question 2
The 1x1 convolution is primarily used in the Inception Module for what fundamental purpose?
Critical Challenge: Vanishing Gradients
Engineering Solutions for Optimization
Explain how ResNet’s identity mapping fundamentally addresses the Vanishing Gradient problem beyond techniques like improved weight initialization or Batch Normalization.
Q1
Describe the mechanism by which the skip connection stabilizes gradient flow during backpropagation.
Solution:
The skip connection introduces an identity term ($+x$) into the output, creating an additive term in the derivative path ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). This term ensures a direct path for the gradient signal to flow backwards, guaranteeing that the upstream weights receive a non-zero, usable gradient signal, regardless of how small the gradients through the residual function $F(x)$ become.
The skip connection introduces an identity term ($+x$) into the output, creating an additive term in the derivative path ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). This term ensures a direct path for the gradient signal to flow backwards, guaranteeing that the upstream weights receive a non-zero, usable gradient signal, regardless of how small the gradients through the residual function $F(x)$ become.